智能论文笔记

Improvements on SCORE, Especially for Weak Signals

Jiashun Jin , Zheng Tracy Ke , Shengming Luo

分类：机器学习 | (统计)机器学习

2018-11-14

网络可能具有弱信号和严重程度的异质性，并且可能在一次出现时非常稀疏，但在另一个发生中非常致密。得分（Jin，2015）是最近网络社区检测的方法。它适应严重的程度异质性，并适应不同水平的稀疏性，但它对具有弱信号的网络的性能尚不清楚。在本文中，我们认为，在广泛的网络设置中，我们允许弱信号，严重程度异质性和广泛的网络稀疏性，得分实现了完善的聚类，并且在汉明集群中具有所谓的“指数率”错误。证据对网络邻接矩阵的领先特征向量进行了最新的进出方程。理论分析向我们保证，在弱信号设置中，得分继续运行，但它不排除分数可以进一步提高的可能性，以在实际应用中具有更好的性能，特别是对于具有弱信号的网络。作为纸张的第二份贡献，我们提出得分+作为改进的分数版本。我们调查了8个网络数据集的得分+，发现它优于几种代表性的方法。特别是，对于具有相对强烈的信号的6个数据集，得分+具有与得分相似的性能，但对于2个数据集（Simmons，Caltech）具有可能弱信号，得分+的误差率较低。得分+提出了几个变化以得分。我们使用理论和数值研究的混合物仔细解释每个变化的基本原理。

translated by 谷歌翻译

AirFormer: Predicting Nationwide Air Quality in China with Transformers

Yuxuan Liang , Yutong Xia , Songyu Ke , Yiwei Wang , Qingsong Wen , Junbo Zhang , Yu Zheng , Roger Zimmermann

分类：机器学习

2022-11-29

Air pollution is a crucial issue affecting human health and livelihoods, as well as one of the barriers to economic and social growth. Forecasting air quality has become an increasingly important endeavor with significant social impacts, especially in emerging countries like China. In this paper, we present a novel Transformer architecture termed AirFormer to collectively predict nationwide air quality in China, with an unprecedented fine spatial granularity covering thousands of locations. AirFormer decouples the learning process into two stages -- 1) a bottom-up deterministic stage that contains two new types of self-attention mechanisms to efficiently learn spatio-temporal representations; 2) a top-down stochastic stage with latent variables to capture the intrinsic uncertainty of air quality data. We evaluate AirFormer with 4-year data from 1,085 stations in the Chinese Mainland. Compared to the state-of-the-art model, AirFormer reduces prediction errors by 5%~8% on 72-hour future predictions. Our source code is available at https://github.com/yoshall/airformer.

translated by 谷歌翻译

Learned Smartphone ISP on Mobile GPUs with Deep Learning, Mobile AI & AIM 2022 Challenge: Report

Andrey Ignatov , Radu Timofte , Shuai Liu , Chaoyu Feng , Furui Bai , Xiaotao Wang , Lei Lei , Ziyao Yi , Yan Xiang , Zibin Liu

分类：计算机视觉

2022-11-07

The role of mobile cameras increased dramatically over the past few years, leading to more and more research in automatic image quality enhancement and RAW photo processing. In this Mobile AI challenge, the target was to develop an efficient end-to-end AI-based image signal processing (ISP) pipeline replacing the standard mobile ISPs that can run on modern smartphone GPUs using TensorFlow Lite. The participants were provided with a large-scale Fujifilm UltraISP dataset consisting of thousands of paired photos captured with a normal mobile camera sensor and a professional 102MP medium-format FujiFilm GFX100 camera. The runtime of the resulting models was evaluated on the Snapdragon's 8 Gen 1 GPU that provides excellent acceleration results for the majority of common deep learning ops. The proposed solutions are compatible with all recent mobile GPUs, being able to process Full HD photos in less than 20-50 milliseconds while achieving high fidelity results. A detailed description of all models developed in this challenge is provided in this paper.

translated by 谷歌翻译

A Ligand-and-structure Dual-driven Deep Learning Method for the Discovery of Highly Potent GnRH1R Antagonist to treat Uterine Diseases

Song Li , Song Ke , Chenxing Yang , Jun Chen , Yi Xiong , Lirong Zheng , Hao Liu , Liang Hong

分类：人工智能 | 机器学习

2022-07-23

促性腺营养蛋白释放激素受体（GNRH1R）是治疗子宫疾病的有前途的治疗靶标。迄今为止，在临床研究中可以使用几个GNRH1R拮抗剂，而不满足多个财产约束。为了填补这一空白，我们旨在开发一个基于学习的框架，以促进有效，有效地发现具有理想特性的新的口服小型分子药物靶向GNRH1R。在目前的工作中，首先通过充分利用已知活性化合物和靶蛋白的结构的信息，首先提出了配体和结构组合模型，即LS-Molgen，首先提出了分子生成的方法，该信息通过其出色的性能证明了这一点。比分别基于配体或结构方法。然后，进行了A中的计算机筛选，包括活性预测，ADMET评估，分子对接和FEP计算，其中约30,000个生成的新型分子被缩小到8，以进行实验合成和验证。体外和体内实验表明，其中三个表现出有效的抑制活性（化合物5 IC50 = 0.856 nm，化合物6 IC50 = 0.901 nm，化合物7 IC50 = 2.54 nm对GNRH1R，并且化合物5在基本PK属性中表现良好例如半衰期，口服生物利用度和PPB等。我们认为，提议的配体和结构组合结合的分子生成模型和整个计算机辅助工作流程可能会扩展到从头开始的类似任务或铅优化的类似任务。

translated by 谷歌翻译

Quantized Training of Gradient Boosting Decision Trees

Yu Shi , Guolin Ke , Zhuoming Chen , Shuxin Zheng , Tie-Yan Liu

分类：机器学习

2022-07-20

近年来，在广泛的机器学习应用程序中，在梯度增强决策树（GBDT）方面取得了重大成功。通常，关于GBDT训练算法的共识是梯度，统计数据是根据高精度浮点计算的。在本文中，我们调查了一个本质上重要的问题，该问题在先前的文献中在很大程度上被忽略了：代表培训GBDT的梯度需要多少位？为了解决这个谜团，我们建议在GBDT的培训算法中以非常简单但有效的方式量化所有高精度梯度。令人惊讶的是，我们的理论分析和实证研究都表明，梯度的必要精度而不伤害任何性能可能很低，例如2或3位。对于低精度梯度，GBDT培训中的大多数算术操作可以用8、16或32位的整数操作代替。有希望的是，这些发现可能为从几个方面对GBDT进行更有效训练的方式铺平了道路：（1）加速直方图中梯度统计的计算；（2）在分布式培训期间压缩高精度统计信息的通信成本；（3）使用和开发硬件体系结构的灵感，这些架构很好地支持了用于GBDT培训的低精确计算。与大量数据集中的SOTA GBDT系统相比，我们在CPU，GPU和分布式集群上进行了基准测试，最多可容纳我们简单量化策略的速度，这表明了GBDT低表演培训的有效性和潜力。该代码将发布给LightGBM的官方存储库。

translated by 谷歌翻译

Task-agnostic Defense against Adversarial Patch Attacks

Ke Xu , Yao Xiao , Zhaoheng Zheng , Kaijie Cai , Ram Nevatia

分类：计算机视觉 | 机器学习

2022-07-05

对抗斑块攻击通过在指定的局部区域中注入对抗像素来误导神经网络。补丁攻击可以在各种任务中非常有效，并且可以通过附件（例如贴纸）在现实世界对象上实现。尽管攻击模式的多样性，但对抗斑块往往具有高质感，并且外观与自然图像不同。我们利用此属性，并在patchzero上进行patchzero，这是一种针对白色框对面补丁的任务不合时宜的防御。具体而言，我们的防御通过用平均像素值重新粉刷来检测对抗性像素和“零”斑块区域。我们将补丁检测问题作为语义分割任务提出，以便我们的模型可以推广到任何大小和形状的贴片。我们进一步设计了一个两阶段的对抗训练计划，以防止更强烈的适应性攻击。我们在图像分类（ImageNet，resisc45），对象检测（Pascal VOC）和视频分类（UCF101）数据集上彻底评估PatchZero。我们的方法可实现SOTA的稳健精度，而不会在良性表现中降解。

translated by 谷歌翻译

Transformers Improve Breast Cancer Diagnosis from Unregistered Multi-View Mammograms

Xuxin Chen , Ke Zhang , Neman Abdoli , Patrik W. Gilley , Ximin Wang , Hong Liu , Bin Zheng , Yuchen Qiu

分类：计算机视觉 | 人工智能

2022-06-21

深度卷积神经网络（CNN）已被广泛用于各种医学成像任务。但是，由于卷积操作的内在局部性，CNN通常不能很好地对远距离依赖性进行建模，这对于准确识别或映射从未注册的多个乳房X线照片计算出的相应乳腺病变特征很重要。这促使我们利用多视觉视觉变形金刚的结构来捕获一项检查中同一患者的多个乳房X线照片的远程关系。为此，我们采用局部变压器块来分别学习从两侧（右/左）乳房的两视图（CC/MLO）获得的四个乳房X线照片中。来自不同视图和侧面的输出被串联并馈入全球变压器块，以共同学习四个代表左乳房和右乳房两种不同视图的图像之间的贴片关系。为了评估提出的模型，我们回顾性地组装了一个涉及949套乳房X线照片的数据集，其中包括470例恶性病例和479例正常情况或良性病例。我们使用五倍的交叉验证方法训练和评估了模型。没有任何艰苦的预处理步骤（例如，最佳的窗户裁剪，胸壁或胸肌去除，两视图图像注册等），我们的四个图像（两视频两侧）基于变压器的模型可实现案例分类性能在ROC曲线下的面积（AUC = 0.818），该区域的表现明显优于AUC = 0.784，而最先进的多视图CNN（p = 0.009）实现了0.784。它还胜过两个单方面模型，分别达到0.724（CC视图）和0.769（MLO视图）。该研究表明，使用变压器开发出高性能的计算机辅助诊断方案，这些方案结合了四个乳房X线照片。

translated by 谷歌翻译

An Empirical Study of Language Model Integration for Transducer based Speech Recognition

Huahuan Zheng , Keyu An , Zhijian Ou , Chen Huang , Ke Ding , Guanglu Wan

分类：自然语言处理 | 机器学习

2022-03-31

在端到端RNN-TransDucer（RNN-T）中使用外部语言模型（ELM）使用仅文本数据进行语音识别是具有挑战性的。最近，已经开发了一类方法，例如密度比（DR）和内部语言模型估计（ILME），表现优于经典的浅融合（SF）方法。这些方法背后的基本思想是，RNN-T后验应首先先于隐式学习的内部语言模型（ILM），以便整合ELM。尽管最近的研究表明RNN-T仅学习一些低阶语言模型信息，但DR方法使用具有完整背景的训练有素的神经语言模型，这可能不适合估计ILM并恶化整合性能。基于DR方法，我们通过用低阶弱语言模型代替估计来提出低阶密度比方法（LODR）。在英语librispeech＆tedlium-2和中国wenetspeech和aishell-1数据集的内域和跨域情景上进行了广泛的经验实验。结果表明，在大多数测试中，LODR在所有任务中始终胜过所有任务，而通常接近ILME，并且比DR更好。

translated by 谷歌翻译

CUSIDE: Chunking, Simulating Future Context and Decoding for Streaming ASR

Keyu An , Huahuan Zheng , Zhijian Ou , Hongyu Xiang , Ke Ding , Guanglu Wan

分类：自然语言处理

2022-03-31

已知历史和未来的上下文信息对于准确的声学建模很重要。但是，获取未来的上下文会带来流式ASR的延迟。在本文中，我们提出了一个新的框架 - 块，模拟未来的上下文和解码（Cuside）以进行流语言识别。引入了一个新的仿真模块，以递归地模拟未来的上下文帧，而无需等待未来的上下文。使用自我监督的损失与ASR模型共同训练模拟模块；ASR模型通过通常的ASR损失（例如我们实验中使用的CTC-CRF）进行了优化。实验表明，与使用真实的未来框架作为正确的上下文相比，使用模拟的未来上下文可以大大降低延迟，同时保持识别精度。使用Cuside，我们在Aishell-1数据集上获得了新的最新流媒体ASR结果。

translated by 谷歌翻译

Total Scale: Face-to-Body Detail Reconstruction from Sparse RGBD Sensors

Zheng Dong , Ke Xu , Ziheng Duan , Hujun Bao , Weiwei Xu , Rynson W. H. Lau

分类：计算机视觉

2021-12-03

虽然3D人类重建方法使用像素对齐的隐式功能（PIFU）开发快速，但我们观察到重建细节的质量仍然不令人满意。扁平的面部表面经常发生在基于PIFU的重建结果中。为此，我们提出了一个双重PIFU表示，以提高重建的面部细节的质量。具体地，我们利用两只MLP分别代表面部和人体的PIFU。专用于三维面重建的MLP可以提高网络容量，并降低面部细节重建的难度，如前一级PIFU表示。要解决拓扑错误，我们利用3个RGBD传感器捕获多视图RGBD数据作为网络的输入，稀疏，轻量级捕获设置。由于深度噪声严重影响重建结果，我们设计深度细化模块，以减少输入RGB图像的引导下的原始深度的噪声。我们还提出了一种自适应融合方案来熔化身体的预测占用场和面部的预测占用场，以消除其边界处的不连续性伪影。实验证明了我们在重建生动的面部细节和变形体形状方面的效果，并验证了其优于最先进的方法。

translated by 谷歌翻译